作者|Kaushik Choudhury 编译|VK 来源|Towards Data Science
大约13年前,David Cournapeau的Scikit learn作为Google Summer of Code项目的一部分开始。随着时间的推移,Scikit learn成为Python中最著名的机器学习库之一。它提供了几种分类、回归和聚类算法,在我看来,它的关键优势是与Numpy、Pandas和Scipy无缝集成。
在本文中,我将用excel比较Scikit-learn多元线性回归的预测精度。Scikit-learn提供了许多参数(称为估计器(estimator)的超参数)来微调模型的训练并提高预测的准确性。
在excel中,我们没有太多的东西可以调整回归算法。为了公平比较,我将使用默认参数训练sklearn回归模型。
目的
此比较旨在了解excel和Scikit learn中线性回归的预测精度。另外,我将简要介绍在excel中执行线性回归的过程。
示例数据文件
为了进行比较,我们将使用10万个降水量、最低温度、最高温度和风速的数据集。工作人员在8年中的每一天进行测量多次从而得到了这些数据。
我们将利用降水量、最低气温和最高气温来预测风速。因此,风速是因变量,其他数据是自变量。
我们将首先在excel上建立和预测风速的线性回归模型。然后我们将使用Scikit learn进行相同的练习,最后,我们将比较预测结果。
要在excel中执行线性回归,我们将打开示例数据文件并单击excel功能区中的“Data”选项卡。在“Data”选项卡中,选择数据分析选项。
提示:如果看不到“数据分析”选项,请单击 File > Opt